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基于 混合 云 架 构 的 深度 语义 密 文 检索 
李 剑 ， 矫 健 
(北京 邮电 大 学 人 工 智 能 学 院 ， 北京 100876) 


摘 要 : 针对 传统 的 云 环 境 下 密 文 检索 方案 基于 统计 学 模型 来 生成 文件 向 量 和 检索 向 量 ， 并 没有 考虑 文件 和 请 求 的 
深层 次 语义 信息 ， 提 出 一 种 基于 混合 云 架构 的 深层 次 语义 密 文 检索 模型 。 通 过 私有 云 联 邦 学 习 神 经 网 络 模型 构建 向 
量 生 成 模型 ， 通 过 公有 云 存储 密 文 数 据 。 另 外 ， 提 出 密 倒 排 索引 表 来 存放 文件 向 量 ， 在 公有 云 的 检索 过 程 中 ， 保 证 
检索 信息 不 被 泄露 的 情况 下 提高 检索 的 效率 。 对 真实 数据 集 的 分 析 和 实验 表明 ， 提 出 的 方案 在 安全 性 和 搜索 效率 方 
面 都 优 于 目前 同类 型 的 密 文 检索 方案 。 
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Deep semantic ciphertext retrieval based on hybrid cloud architecture 


Li Jian, Jiao Jian 
(School of Artificial Intelligence, Beijing University of Posts & Telecommunications, Beijing 100876, China) 


Abstract: Aiming at the traditional ciphertext retrieval scheme in cloud environment, which generates file vectors and 
retrieval vectors based on statistical model, and does not consider the deep-seated semantic information of files and requests, 
this paper proposes a deep-seated semantic ciphertext retrieval model based on hybrid Cloud Architecture. The vector 
generation model is constructed through the private cloud federated learning neural network model, and the ciphertext data is 
stored through the public cloud. In addition, this paper proposes a secret inverted index table to store file vectors, so as to 
improve the efficiency of retrieval without ensuring that the retrieval information is not leaked in the retrieval process of 
public cloud. The analysis and experiments on real data sets show that this scheme is better than the current ciphertext retrieval 
schemes of the same type in terms of security and search efficiency. 

Key words: ciphertext retrieval; hybrid cloud; federal learning; encrypted inverted index table 


0 引言 语言 差异 。 具 体 来 说 ， 即 使 查询 关键 词 没 有 在 文档 中 直接 
3 现 ,它们 也 可 能 被 构造 为 两 个 具有 高 相似 度 的 低 维 语义 向 量 。 

随 着 网 络 技 术 的 发 展 和 网 络 业务 需求 的 扩大 ， 以 及 云 计 语义 搜索 是 明文 数据 和 加 密 数 据 信 息 检 索 的 一 个 重要 

算 和 大 数据 的 发 展 。 为 了 提高 效率 ， 越 来 越 多 的 机 构 和 公司 究 方 向 中 。 语 义 分 析 消 除了 查询 和 文档 之 间 的 语言 差异 。 
将 数据 上 传 至 公有 云 服 务 器 。 然 而 数据 隐私 一 直 是 云 计算 应 ”Fu 等 人 0 在 语义 本 体 的 支持 下 建立 了 用 户 兴趣 模型 ， 实 现 
用 发 展 的 一 个 重大 阻碍 。 虽 然 云 服务 提 供 商 声称 防火 墙 等 机 ”了 个 性 化 的 关键 词 精确 搜索 。 在 文献 [13,14] 中 , 使 用 互信 息 
制 可 以 增强 用 户 数据 的 安全 性 ， 但 公有 云 服务 器 完全 控制 儿 模型 构建 语义 扩展 方案 。 例 如 ，Jadhav 利用 互信 息 模型 扩展 
包 数 据 , “诚实 但 好 奇 的 ”的 云 服务 器 可 能 会 泄露 数据 所 有 者 。 查询 关键 字 , 然后 计算 文档 的 相关 性 得 分 。 文 献 [15] 中 提出 了 
不 愿 透露 的 敏感 数据 。 因 此 ， 数 据 所 有 者 在 将 文档 上 传 到 半 ”模糊 关键 词 搜索 技术 , 用 于 扩展 关键 词 集 合 。Fu 等 人 (开发 
诚实 的 云 之 前 对 其 进行 加 密 ， 并 将 数据 存储 为 密 文 以 确保 文 ”了 基于 单纯 形 的 分 级 多 关键 字模 糊 搜索 方案 ， 没 有 预定 义 的 
当 的 安全 性 。 男 一 方面 ， 企 业 和 政府 为 保证 数据 安全 性 构建 ” 模糊 集 。Yang 等 人 (9 提出 在 一 个 可 验证 的 语义 方案 中 利用 


上 上 


私有 云 服务 器 ,往往 存在 内 部 的 大 量 有 价值 资源 不 可 被 使 用 ， EMD 距离 , 该 语义 方案 描述 了 查询 和 文档 之 间 的 单词 传输 问 
出 现 数 据 孤 岛 问 题 。 因 此 提出 一 种 在 云 环 境 下 通过 数据 共享 ” 题 ， 单 词 传输 的 最 小 成 本 称 为 查询 和 每 个 文档 之 间 的 相似 性 
提升 性 能 的 高 效 密 文 检索 方案 具有 重要 意义 。 分 数 。 

数据 加 密 方案 对 数据 检索 提出 了 巨大 的 挑战 。 近 年 来 ， 本 文 使 用 混合 云 架构 ， 解 决 数据 孤岛 问题 ， 利 用 联邦 学 
研究 学 者 提出 了 许多 文本 检索 策略 。 在 文献 [1] 中 ，Cao 等 习 构 建 深度 神经 网 络 模型 提取 数据 深层 语义 ， 并 提出 加 密 倒 


有 
向 量 空间 模型 计算 文档 向 量 和 查询 向 量 的 内 积 ， 并 
使 用 安全 kNN 算法 (Sec-KNN) 对 其 进行 加 密 。 基 于 内 积 运算 FE 有 较 高 的 检索 准确 性 和 效率 。 
的 结果 , 提出 了 一 种 多 关键 字 密 文 检 索 结果 排序 (MRSE) 方 案 。 1 ”问题 描述 
后 来 ,研究 者 提出 了 许多 拓展 方法 5。 这 些 方法 都 具有 可 证 
明 的 安全 性 ， 但 在 信息 检索 领域 都 采用 了 传统 的 TF-IDF 加 1.1 系统 模型 


FE 索引 表 结 构 来 缩短 检索 时 间 , 该 方案 保证 了 数据 的 安全 性 ， 


半生 


权 统计 计算 规则 。 使 用 关键 词 的 规则 无 法 有 效 捕获 单词 的 上 如 图 1 所 示 , 在 本 方案 中 ,一 共有 五 个 实体 ， 分 别 为 数据 拥有 
下 文 。 此 外 ， 这 些 方案 具有 高 向 量 维 数 、 高 存储 要 求 和 高 时 者、 数据 使 用 者 、 私 有 云 服务 器 、 公 有 云 服 务 器 、 参 数 服务 器 。 
间 复 杂 度 。 在 信息 检索 中 ， 当 单词 匹配 失败 时 ， 潜 在 语义 模 1) 数 据 拥有 者 

型 将 查询 映射 到 相关 文档 。 该 模型 解决 了 文档 和 查询 之 间 的 数据 拥有 者 拥有 有 价值 的 数据 。 对 数据 进行 加 密 处 理 后 
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上 传 至 公有 云 ， 同 时 将 明文 数据 上 传 至 私有 云 后 进行 模型 训 “1.4 设计 目标 
练 。 根 据 训 练 完 成 的 神经 网 络 模型 ， 生 成 文件 向 量 后 ， 构 建 为 了 在 上 述 模型 下 有 效 地 利用 外 包 的 云 数 据 实现 排序 搜 
加 密 倒 排 索引 表 上 传 至 公有 云 。 索 ， 本 文 方案 需要 确保 检索 准确 性 和 检索 效率 。 
2) 数 据 使 用 者 检索 准确 率 : 使 用 统计 特征 的 经 典 加 密 检索 模型 无 法 捕 
数据 使 用 者 将 检索 关键 词 、 个 人 信息 发 送 至 所 有 数据 获 单词 的 上 下 文 信息 和 文档 的 深层 语义 。 本 文 的 方案 旨 在 研 


有 者 进行 授权 认证 、 检 索 关 键 词 映射 字 及 密 钥 。 将 检索 关键 词 。 究 文 件 深层 次 的 语义 ， 而 不 是 基于 统计 学 特征 作为 文件 检索 

发 送 至 参数 服务 器 接收 到 检索 向 量 后 ， 根 据 密 钥 生成 加 密 陷 门 ”结果 的 依据 。， 本 文 的 模型 不 是 使 用 统计 特征 的 方法 , 而 是 通 

发 送 至 公有 云 ， 并 收 到 公有 云 返 回 的 TOP-K 相关 文件 结果 。 过 神经 网 络 进行 优化 ， 检 索 准 确 率 高 于 以 前 的 方法 。 
3) 私 有 云 服务 器 效率 : 效率 包括 两 个 方面 ， 搜 索 和 存储 。 减 小 生成 向 量 
每 个 数据 拥有 者 有 一 个 私有 云 服务 器 。“ 诚 实 且 可 信 ?” 的 的 维 数 可 天 然 减 小 存储 与 计算 资源 消耗 ， 同 时 设计 合适 的 文 

私有 云 服务 器 收 到 明文 数据 、 网 络 模型 后 单独 训练 ， 每 轮训 档 索 引 向 量 管理 结构 也 可 提高 检索 的 效率 。 

练 结束 后 将 参数 结果 与 参数 服务 器 进行 联邦 训练 。 训 练 好 的 


吊 


I 


苗 开 
神经 网 络 模型 回 传 至 数据 拥有 者 。 2 ”模型 
4) 公 有 云 服务 器 2.1 私有 云 联邦 学 习 模型 
公有 云 服务 器 为 “诚实 且 不 可 信 ? 的 实体 。 存 储 数据 联邦 学 习 是 分 布 式 机 器 学 习 架构 的 一 种 表现 形式 ， 联 邦 
有 者 的 加 密 数 据 与 加 密 倒 排 索引 表 。 收 到 参数 服务 器 发 送 的 。 ”学 习 可 分 为 训练 服务 器 和 中 心 参数 服务 器 。 所 有 服务 器 共享 


请 求 陷 门 后 ,通过 计算 找 出 相关 加 密 文件 发 送 至 数据 使 用 者 。 ”需要 训练 的 机 器 学 习 模 型 , 且 共 享 各 服务 器 每 轮训 练 的 参数 ， 
5) 参 数 服务 器 所 有 训练 服务 器 将 参数 以 密 文 形式 传递 给 中 心服 务 器 后 ， 中 
参数 服务 器 同样 也 是 私有 云 服务 器 。 是 “诚实 且 可 信 ” 心服 务 器 进行 参数 统一 。 联 邦 学 习 架 构 ， 在 保证 数据 不 被 共 

的 ， 由 所 有 数据 拥有 者 共同 维护 。 它 是 联邦 学 习 模 型 训练 的 。” 享 的 前 提 下 ， 对 所 有 数据 进行 集中 训练 。 解 决 了 各 个 数据 

中 央 服 务 器 。 在 收 到 数据 使 用 者 的 检索 关键 字 后 生成 检索 向 ” 有 者 的 敏感 数据 孤岛 问题 。 

量 发 送 至 数据 使 用 联邦 学 习 由 参数 服务 器 与 数据 训练 方 两 部 分 组 成 ， 所 有 

训练 者 共享 训练 模型 U71。 各 数据 训练 者 单独 训练 自己 的 数据 ， 

共享 训练 参数 。 传 统 密 文 检索 方案 基于 统计 学 模型 ， 根 据 文 

件 中 关键 词 的 词 频 与 逆向 文件 频率 来 生成 文件 向 量 和 检索 请 

求 向 量 。 在 此 基础 上 提高 检索 准确 性 的 方案 为 检索 关键 词 的 


拓展 ， 如 用 户 兴趣 模型 、 根 据 深度 学 习 得 出 的 相似 关键 词 的 
S 拓展 ， 或 根据 关键 词 的 位 置 进行 权重 更 新 。 由 于 数据 安全 性 
只 内 ... 用 户 认证 及 密 铀 协商 的 问题 ， 并 没有 通过 深度 神经 网 络 训练 明文 数据 ， 挖 掘 文 章 
gg 有 者 数据 使 用 者 深层 次 语义 。 本 文 提出 基于 私有 云 架构 下 的 联邦 学 习 模 型 ， 
图 1 系统 模型 可 将 文章 向 量 与 检索 向 量 的 生成 方式 由 传动 的 统计 学 模型 更 
Fig.1 Systemmodel 新 为 深度 学 习 模 型 。 并 且 考 虑 所 有 数据 训练 者 的 计算 性 能 有 
1.2 威胁 模型 所 不 同 ， 设 计时 间 窗 口 管 理 模 式 ， 提 高 了 通信 与 训练 效率 。 
在 本 文 的 方案 中 ， 本 文 假设 参数 服务 器 是 可 信 的 ， 公 共 ”如 图 2 所 示 ， 为 私有 云 联 邦 学 习 模 型 架构 。 
云 是 一 个 “诚实 但 好 奇 ”的 服务 器 叫 。 基于 半 诚 实 公共 云 服务 
器 已 知 的 信息 ， 本 文 研究 了 两 种 威胁 模型 。 芋 
己 知 密 文 威胁 模型 。 公 共 云 只 知道 加 密 文档 、 加 密 数据 Rs 
索引 和 安全 查询 陷 门 。 在 这 种 情况 下 ， 公 共 云 服务 器 仅 使 用 n WE 
仅 密 文 攻击 模式 进行 攻击 。 “ 时 ` 兆 
己 知 背景 威胁 模型 。 公 共 云 服务 器 应 该 知道 比 已 知 密 文 | I 
模型 中 更 多 的 信息 。 这 些 知识 包括 陷 门 的 相关 关系 ， 以 及 与 二 盐 
数据 集 相 关 的 统计 信息 。 公 共 服 务 器 使 用 已 知 的 陷 门 信息 来 T2 0 
分 析 查 询 关 键 字 或 陷 门 与 文档 的 关系 。 | 得 2 2 
Arhr 口 数据 拥有 者 1 数据 拥有 者 2 数据 拥有 者 n 
1.3 付 亏 
2 :检索 关键 词 集合 ，Q={41,q2,…,4} 。 图 2 ”私有 云 联 邦 学 习 模型 
D :明文 数据 集合 D={D',D,…,P"} ， 其 中 疡 代表 第 ;个 数 Fig. 2 Private cloud federation learning model 
据 拥有 者 的 明文 数据 集合 。 一 轮 联 邦 学 习 网 络 模 型 更 新 的 时 间 由 数据 拥有 者 的 训练 
E : 密 文 数据 集合 ={, 忆 ,…,r} ， 其 中 EE 代表 第 i 个 数 。” 时 间 Tl 和 参数 传递 及 参数 服务 器 更 新 时 间 T2 组 成 。 考虑 到 
据 拥有 者 的 密 文 数据 集合 i 。 每 个 数据 拥有 者 的 数据 量 及 计算 能 力 不 同 ， 本 文 设 计 了 时 间 
P :文件 向 量 集合 ，?={B',BB…,Pr}， 其 中 P' 代表 第 i 个 数 管理 模型 .联邦 学 习 开 始 之 间 , 整 个 系统 测试 通信 时 间 ， 
据 拥有 者 的 第 1 个 明文 数据 对 应 的 文件 向 量 。 设 定 通信 窗口 T1 及 总 体 窗口 时 间 T， 数 据 拥有 者 训练 时 间 
7 :加 密 文 件 向 量 集合 ，Z= 全 下 2) ， 其 中 天 代表 第 ii 个 T2=TT1。 对 数据 拥有 者 1 来 说 ,第 一 次 训练 参数 结果 为 W ， 
数据 拥有 者 的 第 1 个 明文 数据 对 应 的 加 密 文件 向 量 。 后 在 T2 时 间 内 继续 本 地 训练 ， 本 地 训练 的 轮 次 根据 数据 
N :检索 关键 词 映射 数字 集 合 ， 有 者 的 数据 量 大 小 .私有 云 的 计算 能 力 不 同 也 会 有 所 不 同 ， 
N={N,N3,.… NE} ,其 中 Ni 代表 第 1 个 检索 关键 词 在 第 i 个 数据 。 在 结束 时 的 训练 参数 结果 计 为 mm ， 将 结果 发 送 至 参数 服务 器 。 


拥有 者 的 映射 数字 表达 。 该 方案 既 保 证 了 每 轮 模 型 统一 时 ， 所 有 用 户 数据 拥有 者 都 参 
V :检索 向 量 。 与 训练 又 考虑 了 计算 能 力 强 的 数据 拥有 者 可 多 次 本 地 训练 提 


7 :加 密 检索 向 量 。 升 模型 训练 效果 。 
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2.2 神经 网 络 向 量 生成 模型 


与 传统 的 统计 学 生成 的 向 量 生成 模型 不 同 ， 本 文 利用 私 。 3 。” 本文 方 案 
有 云 联 邦 学 习 模 型 训练 神经 网 络 向 量 生 成 模型 。 模 型 选择 为 。 3.1 具体 方案 
DSSMts1。 文 件 向 量 、 检 索 向 量 通过 该 模型 映射 到 同 维度 的 edo) > {SK, Ka,q) 
深层 次 语义 空间 。 数据 所 有 者 通过 随机 密 钥 生成 算法 输出 密 钥 以 加 密 文档 


DSSM 模型 的 输入 为 N 个 文件 与 1 个 查询 请 求 。 神 经 网 和 索引 ， 并 输入 一 个 安全 参数 1。 SK 是 一 个 密 钥 集 ， 包 括 
络 架 构 为 五 层 。 第 一 层 为 维度 为 500k 的 输入 。 经 过 Word-n- 个 ea 
gram 层 将 维度 减 小 到 30k。 后 经 过 两 层 全 连接 深度 神经 网 络 SK={Mi,M,S} 。 此 外 ，K 是 对 称 密 钥 ,a 是 4 的 本 源 根 。 


层 ， 维 度 为 300、300， 后 输入 为 128 维 的 向 量 。 该 模型 的 各 {a,q, Xi Ys} >N 
层 激活 函数 为 tanh。 身份 认证 后 ， 数 据 使 用 者 发 送 检索 关键 字 给 所 有 数据 
在 训练 过 程 中 , 通过 该 模型 生成 的 N+l 个 128 位 的 向 量 有 者 ， 每 个 数据 拥有 者 与 该 数据 使 用 者 根据 a，9 和 各 自 的 


t Fall 


对 应 了 文件 与 查询 请 求 。 为 简化 密 文 检索 的 复杂 度 ， 本 文 在 。” 密 钥 X,Y 来 生成 检索 关键 词 的 映射 数字 。 具 体 流 程 如 2.2 
生成 128 维 向 量 后 ， 需 对 向 量 进行 归 一 化 处 理 ; 所 述 。 数 据 拥有 者 根据 生成 的 关键 字 映射 数字 生成 加 密 倒 排 
i 而 索引 表 的 KEY 值 。 数 据 使 用 者 拥有 nxk 个 关键 字 映射 数字 。 
ll 其 中 大 为 数据 使 用 者 的 关键 字 个 数 , ”为 数据 拥有 者 的 数量 。 
ee 吉 果 。 模 型 
标 是 优化 点 击 文档 的 可 能 性 ， 损 失 函 数 如 式 (2) 所 示 。 4 2 
bi PC 19) (2) i 身份 认证 、 密 钥 交 换 i 
其 中 ， 通 过 softmax 函数 计算 的 正 向 文档 与 查询 请 求 的 相关 OO 
性 得 分 的 后 验 概 率 ，7 为 以 真实 数据 测试 为 背景 得 出 的 平滑 BE 
系数 ， 万 为 所 有 文档 ， 包 括 4 个 没有 被 点 击 的 文档 互 和 1 个 ET | 
被 点 击 的 文档 5*。 在 本 文 的 方案 中 ， 随 机 初始 化 参数 ， 使 用 a ,及 ) 
随机 梯度 算法 使 得 每 个 私有 云 来 分 布 式 地 训练 。 如 式 (3) 所 示 。 I | 
数据 拥有 者 算出 k 个 检索 关 
"0 10 poop G) Te 
在 本 文中 ， 每 个 数据 拥有 通过 私有 云 服务 器 单独 训练 3 ”关键 字 映 射 数字 过 程 
DSSM 模型 ， 数 据 为 该 拥有 者 自己 的 数据 。 通 过 参数 服务 器 Fig.3 ” Keyword mapping digital process 
进行 参数 共享 。 a) 联 邦 学 习 深度 神经 网 络 模型 
2.3 ”加 密 倒 排 索 引 表 数据 拥有 者 将 数据 信息 传 入 私有 云 ， 共 同 训练 预先 规定 
倒 排 索引 表 在 信息 检索 领域 中 应 用 广泛 ， 根 据 KEY 好 的 神经 网 络 模型 .规定 ,在 初始 轮 次 神经 网 络 的 参数 统一 ， 
VALUE 格式 建 表 , 其 中 KEY 为 文件 关键 词 集合 .VALUE 值 。 在 每 轮训 练 结束 、 下 一 轮训 练 开始 前 ， 各 私有 云 服 务 器 从 参 


为 文件 的 文件 向 量 。 在 密 文 检索 中 ， 不 可 信 的 公有 云 存放 检 ，” 数 服务 器 下 载 最 新 参数 ， 参 数 再 次 统一 。 在 本 文 使 用 的 神经 
索 表 , 避免 公有 云 服务 器 对 数据 使 用 者 的 检索 情况 进行 分 析 ， 网 络 模型 为 DSSM0D5， 该 模型 结构 如 2.2 所 述 。 联 邦 学 习 训 


所 以 不 可 将 KEY 值 以 明文 关键 字 的 形式 直接 存放 于 公有 云 练 模型 方式 根据 2.1 所 述 ， 考 虑 所 有 用 户 参 与 每 轮训 练 ， 也 

服务 器 。 本 文 利用 离散 对 数 难 题 将 关键 词 映 射 为 无 规律 的 数 同时 保证 算 力 大 的 用 户 多 次 训练 来 提升 联邦 学 习 训练 效率 。 

字 。 并 且 在 每 轮 检 索 过 程 中 更 新 密 文 倒 排 索引 表 的 KEY 值 。 Index(SK,D) —>{P,7} 

加 密 倒 排 索 引 表 保 证 了 数据 和 数据 使 用 者 的 安全 性 ， 具 体 流 通过 私有 云 训练 好 的 向 量 模 型 ， 所 有 数据 拥有 者 根据 该 

程 如 图 3 所 示 。 模型 明文 数据 D 生成 128 维 的 文件 向 量 P ， 并 将 其 扩展 为 
数据 使 用 者 在 检索 的 初始 阶段 需要 向 所 有 数据 拥有 者 发 (28+u+D 维度 向 量 5， 其 中 扩展 的 最 后 一 位 设 为 1， 其 他 设 


送 身份 认证 。 认 证 通过 后 ， 数 据 使 用 者 拥有 个 密 钥 集合 ”为 随机 数字 sm 。 经 过 密 钥 SK 加 密 文 件 向 量 P 生成 加 密 文 件 
S={PD,qaj,{PDP 90 PPD,qal ,其 中 {PD.,q.q} 代表 第 i 向 量 7 ， 具 体 为 利用 5 将 向 量 F 分 裂 为 P 和 P' ， 分 裂 规则 如 
个 数据 拥有 者 与 数据 使 用 者 共享 的 素数 9、 整 数 a4， 以 及 数 。” 式 (7) 所 示 。 数据 使 用 者 构建 倒 排 索 引 表 并 将 加 密 文件 向 量 7 
据 使 用 者 i 的 文件 密 钥 。 放 入 表 的 VALUE 位 置 。 上 传 至 公有 云 。 
数据 使 用 者 通过 私 钥 Xe 生成 公 钥 7 ， 如 式 (4) 所 示 。 1 0 
Ys =acew modg (4) BLI+ BL]=P] (SO 加 = 
随后 将 7, 和 检索 关键 词 集合 0={4.,9.,…,44} 一 同 发 送 给 Enc(D,K)>C 
数据 拥有 者 0; 。 数 据 使 用 者 该 轮 请 求 有 大 个 关键 字 。 对 于 数 数据 使 用 者 使 用 密 钥 kK 加 密 数据 集 D 。 
据 拥有 者 0: ， 根 据 k 个 关键 字 ， 生 成 个 私 钥 {Xs…Xis} 和 Trapdoor(Q, SK) 一 了 
大 个 公 钥 {736…,7s}。 并 将 公 钥 发 送 至 数据 使 用 者 。 数据 使 用 者 将 检索 关键 词 发 送 至 参数 服务 器 ， 参 数 服务 
数据 使 用 者 通过 式 (3) 计 算出 上 个 关键 字 映 射 数字 : 器 根据 训练 好 的 模型 生成 检索 向 量 发 送 至 数据 使 用 者 ， 数 据 
N* = (Yk)* modg (5) ”使 用 者 根据 密 钥 SK 和 接收 到 的 128 维 检索 向 量 V ， 并 扩展 
数据 拥有 者 通过 式 (6) 计 算出 个 关键 字 映 射 数字 : 为 428+x+D 维度 向 量 V ， 扩 展 的 最 后 一 位 为 随机 数字 +， 其 
N* =(Y,,)* modg (6) ” 余 补 充 位 置 由 0 或 者 1 补充， 并 利用 5 将 向 量 V 分 裂 为 V 和 
在 数据 使 用 者 与 所 有 数据 拥有 者 进行 身份 认证 和 关键 字 V'， 分 裂 规 则 如 式 (8) 所 示 。 再 生成 加 密 检索 陷 门 7 后， 数据 


数字 映射 后 ， 共 有 nxk 个 关键 词 映 射 数字 生成 ， 数 据 使 用 者 ” 使 用 者 将 陷 门 7 和 关键 词 映 射 集合 N 发 送 至 公有 云 。 
将 nxk 个 映射 数字 与 检索 关键 词 发 送 至 参数 服务 器 。 每 个 数 eet. 
据 使 用 者 跟 据 自己 拥有 的 大 个 映射 数字 更 新 加 密 倒 排 索引 表 YI+YI=VO (SI=0) 
对 应 工 EY 介 ， 其 麻 记 EY 信 隐 机 外 成 症 全 这 相信 有 有关。 Search(T,1,N,kw) > E, 


(8) 
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录用 定稿 李 剑 ， 等 : 


者 上 传 的 加 密 检索 陷 门 7 后， 根据 
找 出 与 关键 词 映 
的 加 密 文 
,并 发 送 至 数据 使 


关键 


射 集合 
T ,通过 式 (9) 计 算出 前 《个 文件 


后 得 
3.2 


灯 为 


公有 云 收 到 数据 使 ) 
词 映 射 集合 N 与 加 密 倒 排 索引 表 比 对 ， 
N 为 KEY 值 的 对 应 所 有 VALUE 中 


牛 向 量 
者。 


LT={MIB,MIB}{MV',MsV'} =B:V +P .VV = 


PO=r(P.Q+ en)+t 
Dec(E,,K)—»D, 
数据 使 用 者 根据 收 到 
到 结果 文件 明文 信息 。 
方案 流程 


(9) 


结果 文件 集 互 后 , 根据 密 钥 K 解密 


本 文 提出 的 混合 云 架 构 的 密 文 检索 方案 
为 两 部 分 ， 非 检索 阶 
非 检 索 阶 段 包括 构建 向 量 


生成 模型 ， 向 量 


段 和 检索 阶段 ， 如 图 4 所 示 。 


体 工 作 流 程 解 


生成 模型 可 生 


成 检索 向 量 和 文件 向 量 ， 通 过 音 


季 2.1 提出 


的 混合 云 架 构 的 


5 ”性 能 评估 
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本 文 使 用 PYTHON 语言 在 Intel Core CPU 为 2.9GHz、 


Windows10 服务 器 .RAM 为 4GB 的 计算 机 上 实现 了 
出 的 系统 的 性 能 与 MRSE 方案 器、 


本 文 提 
FMRSM 方案 Po 
真实 的 数据 集 上 
集 ， 并 目 
的 查询 文档 日 志 
型 训练 时 每 次 一 


PRSE 
在 实验 中 ， 


的 性 能 进行 了 对 比 。 


个 检索 请 求 和 对 应 的 4 个 非 


评估 整体 性 能 ， 该 数据 集 以 后 称 为 评 
利用 DSSM03 网 络 作为 联邦 学 习 网 络 模型 。 
文件 中 随机 选择 20000 个 英语 查询 样 
相关 文档 和 1 个 


该 方案 。 
方案 0 和 


相关 文档 。 本 文 
分 析 。 每 次 模拟 


重复 10 次 , 并 分 析 和 给 出 平均 模拟 


从 检索 效率 和 文档 检索 精度 方面 进行 


统 的 各 个 模块 及 


让 体 实 现 方案 如 表 1 所 示 。 
表 1 模块 介绍 与 实现 方法 


结果 ， 系 


Tab. 1 Introduction and implementation method of each module 


联邦 


学 习 模 型 来 训练 2.2 章节 的 神经 网 络 模型 ， 


络 向 
得 到 


每 个 数据 拥有 者 
向 量 通过 加 密 


量 生成 模型 ; 
文件 向 量 ， 文 件 


密 倒 


量 咎 


排 索引 表 来 管理 文件 向 量 。 


tu 


| 非 检索 阶段 | 检索 阶段 | 
开始 
I 
生成 检索 请 求 向 量 
构建 向 量 生成 模型 
I 
相关 文件 检索 
构建 倒 排 索引 表 
解密 文件 
结束 


图 4 方案 流程 
Fig. 4 


Scheme process 


有 该 模型 输入 明文 数据 
并 利用 2.3 章节 


生成 神经 网 


提出 的 加 


检索 阶段 ， 数 据 使 
成 模型 的 参数 服务 器 ， 多 


检索 


向 量 并 发 送 至 数据 使 用 者 ， 数 据 使 用 者 加 


发 送 
并 发 


4 


至 公有 云 , 公有 云 通 过 加 密 
送 给 数据 使 | 


者 ; 数据 使 用 


j 者 发 送 检索 请 求 至 拥 
参数 服务 器 收 到 检索 请 求 后 生成 


有 神经 网 络 向 


密 检索 向 量 后 


倒 排 索引 表 检 索 出 相关 文件 ， 
者 通过 密 钥 解密 出 


目 标 昌 


有 文 


于 数据 的 更 新 ,会 让 神经 网 络 向 量 
阶段 和 非 检索 阶段 会 重复 发 生 ， 但 分 


生成 模型 不 断 更 新 ， 
别 独立 。 


安全 性 分 析 
首先 ， 


进行 
还 引 
如 文 
计算 
模型 


档 索 


启 


和 已 知 的 背景 知识 
， 本 文 动态 地 改变 了 陷 门 的 表达 。 本 文 使 用 8 分 害 


铀 8 SK K 中 的 向 量 。 妹 此， 即使 用 户 多 次 检索 同一 查询 ， 收 到 


降 维 , 文 档 和 查询 的 内 容 不 能 


在 神经 网 络 模型 中 生成 陷 门 和 文档 索引 ， 
接 反 映 在 向 量 


并 对 其 
中 。 此 外 ， 


入 了 伪 关 键 字 、 
献 [19] 中 所 证 
矩阵 。 
威胁 模型 。 


随机 分 裂 和 两 个 w+x+D 加 密 和 矩阵 。 正 
明 的 ， 对 手 无 法 构造 足够 的 
因此 ， 本 文 提 出 的 方案 很 好 地 抵抗 


本 文 将 已 知 背景 知识 模型 下 的 安全 性 归 


方程 来 完整 地 
了 已 知 的 密 文 


结 为 了 解 文 


引 和 检索 陷 门 之 间 的 内 在 关系 。 为 了 进 


Pn 


步 防止 好 奇 


泄露 和 最 小 化 文档 


| 密 


实现 模块 模 


块 实现 方法 


私有 云 联邦 学 习 模块 FedML 
联邦 学 习 模型 


其 邦 学 习 开 源 框架 
DSSMP9 


加 密 倒 排 索引 表 模 块 


定义 算法 


文件 检索 模块 


定义 算法 


文件 加 解密 密 模块 


Crypt 库 


本 文 比较 了 本 文 的 方案 与 上 述 方 


案 (MRSE、FMRSM 和 


PRSE) 的 文档 检索 效率 。 如 图 5 所 示 ， 
的 增加 ， 所 有 四 种 方案 的 检索 时 间 都 会 
时 间 随 着 文档 集 大 小 的 线性 增长 而 近似 
共 云 服务 器 需要 在 搜索 阶段 扫描 所 有 文 
FMRSM 和 PRSE 方案 的 性 能 更 好 ， 但 
于 上 述 所 有 方案 。 本 文 方案 搜索 过 程 基 


随 着 集合 中 文档 数量 
曾 加 。MRSE 的 搜索 
线性 增长 。 考 虑 到 公 
档 索引 , 这 是 合理 的 。 
本 文 的 方案 的 性 能 优 
于 加 密 倒 排 索引 表 ， 


向 量 维 数 较 低 。 因 此 ， 当 文档 集 具 有 
方案 更 有 效 。 


无 论 关键 字 的 数量 如 何 ， 三 个 方案 : 


FMRSM 的 搜索 时 间 大 致 保持 不 变 ， 如 
案 的 检索 时 间 都 远 高 于 本 文 方案 。 


更 多 文件 时 ， 本 文 的 


MRSE、PRSE 和 
图 6 所 示 。 但 三 种 方 


| <- 文献 [2] 方 案 
-文献 [12] 方 案 
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六 件数 量 (x10) 


图 5 文件 个 数 对 检索 时 间 


的 影响 


Fig.5 The influence of the number of files on retrieval time 


在 本 文中 ， 本 文通 过 相关 文档 在 所 在 


有 返回 结果 中 所 占 的 


比例 来 衡量 文档 检索 的 准确 性 。 从 图 7 


可 以 看 出 ,与 MRSE 


相 比 ,无 论文 档 数 量 如 何 , 本 文 方案 的 搜 


索 精 度 始终 高 于 95%。 


相 比 之 下 ，MRSE et 近 90% Sou 80%。 


的 搜索 请 求 陷 门 也 是 不 同 的 。 


同时 ， 所 有 
<s) ， 其 值 服从 均值 为 x ， 方 差 为 = 


向 量 引 入 随机 数 
cz/3 的 均匀 分 布 


ZWwr=cw+o ， 根 据 中 心 极限 定理 ，s2 服从 wo2) ， 


值 越 高 ， 安 全 性 越 高 但 其 检索 ; 


确 性 降低 ， 合 适 的 5 值 ， 


可 有 效 地 抵抗 了 统计 分 析 的 攻击 。 
知 的 背景 知识 威胁 模型 也 是 安全 的 。 


本 文 提出 的 方案 对 于 已 
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Fig. 6 


The influence of search keywords on search time 


文件 数量 (*10 ) 


图 7 检索 准确 率 
Fig.7 Retrieval accuracy 


6 ”结束 语 
本 文 提 出 混合 云 架 构 下 的 深度 语义 密 文 检索 方案 ， 本 文 
利用 私有 云 进 行 联邦 模型 学 习 ， A 怖 孤岛 及 安全 性 问 


题 , 可 提取 出 文件 更 深层 次 语义 信息 ,提高 了 检索 的 准确 性 。 
并 利用 加 密 倒 排 索引 表 结 构 ， 在 保证 数据 使 用 者 检索 关键 词 
不 被 公有 云 记录 的 前 提 下 ， 提 升 了 检索 的 效率 分 析 和 仿真 结 
果 表 明 ， 该 方案 为 数据 用 户 提供 了 安全 、 高 效 的 加 密 文 档 搜 
索 服务 。 
在 本 文 未 来 的 工作 中 ， 本 文 计划 优化 神经 网 络 结构 或 使 
用 更 好 的 模型 来 挖掘 加 密 检索 中 文档 的 深层 次 语义 。 同 时 ， 
结合 具体 模型 构建 提升 检索 效率 的 向 量 存储 模型 。 
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